
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨大潜力。
在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨大潜力。
AI已经能够自主思考并证明新的数学规律了? OpenAI研究人员表示,自己喂给GPT-5 Pro一篇论文,结果模型读完之后得到了新的结论。
4 个月前,OpenAI 的 o3 模型凭借视觉推理能力模块和智能的进化,在 AI 创投圈子引起新一轮的震撼与海啸,解锁了一大批新的「套壳」创业机会。正如我们在《谢谢 OpenAI,谢谢 o3,新的「套壳」创业机会来了 | 附 12 个潜力方向》一文中预测的那样,VLM 确实带来了新的创业机会。
进入 2025 年,GUI Agent 赛道热度逐渐抬升 —— OpenAI 推出 Operator 并发布了 ChatGPT Agent,字节则发布了 UI-TARS-1.5 定位 GUI 开源方案。但大多数产品依然依赖本地执行,难以 24h 稳定运行。
硅谷各个模型公司在这个季度,开始分化到各个领域,除了 Google Gemini 和 OpenAI 还在做通用的模型;Anthropic 分化到 Coding、Agentic 的模型能力;Mira 的 Thinking Machines Lab 分化到多模态和下一代交互。
全球首款多模态 AI 硬件 Looki L1 发布,抢先实现了 OpenAI 想象中的交互未来。过去两年,很多人对 AI 的印象,基本都停留在一个对话框里: 有问题,敲几个字,它就给答案。好用是好用,但也让人觉得有点单调——AI 难道就只能困在对话框里吗?
今年 6 月,The Browser Company 向 Arc 用户开放了浏览器 Dia 的 Beta 测试。上个月,Perplexity 新推出了自己的 AI 原生浏览器 Comet,随后 OpenAI 也宣布计划在未来几周发布浏览器。
强化学习(RL)是锻造当今顶尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力与对齐的核心 “武器”,但它也像一把双刃剑,常常导致模型行为脆弱、风格突变,甚至出现 “欺骗性对齐”、“失控” 等危险倾向。
GPT-5是一次 ChatGPT 产品的重要升级。Routing 能力的加入帮助 ChatGPT 模型第一次把产品线捋顺统一,是 UX 交互的一次重要革新。就像 Apple 决定只推出一款 iPhone 产品线,短期用户可能被迫适应 GPT-5 这个旗舰产品的优缺点,但长期更容易占领用户心智。
上周 GPT 5 的更新,除了激起对 4o 的想念,还激起了对 OpenAI 刀法的埋怨:优先付费用户,优先 API 支持…… 说吧,奥特曼,是不是就想逼我花钱升级?